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Оглавление 
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ө Задачи 
е 2 проблемы 


о Текущее представление профиля человека и вопросы к сегментации 
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Задачи 


1. Lookalike (Га!) 


2. Вероятность целевого действия 
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Слишком длинный вектор профиля 
Данные разрежены 
Высокая размерность пространства представлений 
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1. Lookalike 


Lookalike (LaL) – это таргетинг, при котором рекламные материалы показываются 
тем пользователям, которые по поведенческим характеристикам похожи на текущую 
аудиторию ресурса. 


Clickstream - сегмент целевых пользователей (целевой класс) 


Берг sample — сегмент случайных пользователей 
о Маг 
о LogisticRegression / boosting / etc. 
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2. Предсказание осуществления 
целевого действия 


Выбирается целевое действие на сайте клиента DMP. 


Задача бинарной классификации: те, кто осуществил целевое действие (target) 
и кто — нет (по! ізгдеі). 
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Высокая размерность пространства представлений 
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Хотим Federated Learning 


Решение: Embeddings! 
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Ф Время события 
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История первая 


Текстовая векторизация 
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Мир меняется... А ссылки? 
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Мир меняется... А ссылки? 


Был выбран Газ ех! с буквенными п-граммами. 
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Мир меняется... А ссылки? 


Был выбран Газ Тех{ с буквенными п-граммами. 


Пользователи = последовательности - это документ 
Ссылка - ото токен 
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РазіТехі от Gensim 
Skip-Gram 

dim = 128 

min count token = 5 
ОКНО = 5 
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blabla_url.com нет в словаре 
bla_url.com есть в словаре 


п-дгатт => :-) => есть вектор для 
рІабіа ип.сот! 
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Ж Плюсы 


Ka 
> Реализация Сепзит позволяет обучаться на генераторах 
> Метрики качества выше,чем у классического подхода 
-> Позволяет работать с незнакомыми токенами 
> Большой прирост полноты относительно классического подхода 
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text_embs 
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ROC AUC 


0.633 


0.664 (+4.9 %) 


Е1-мера для Ргесісіоп для 
целевого класса > целевого класса 


0.053 0.056 


0.056 (+5.7 %) 0.032 (-42 %) 
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Recall для целевого 
класса 


0.051 


0.224 (+337 %) 
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Всё здорово, но чего-то не хватает 


22? человек - не текст, человек - граф! 
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История вторая 


Графовая векторизация 
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Структура переходов 
пользователей интернета важна! 


Нижняя оценка размера графа на 
месячных данных составляет 160 
000 доменных узлов. 


При этом мы постоянно подключаем 
новых поставщиков данных. 


ТА Hiel оаа 
30 (ні) БАРТ десін 


29 
Ко 
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отображает соседние узлы в графе так, чтобы и в признаковом 
пространстве они были близки 
Graph Input data Embeddings 


ОРОРОРО 


sampling | ОУОРОРО | skip-gram | 
strategy : 8 З 8 2 model | 


---ж---------ж------------- 


Модедуес embedding process 


https://arxiv.org/pdf/1607.00653.pdf 
31 https://towardsdatascience.com/node2vec-embeddings-for-graph-data-32a866340fef 
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> Хорошая точность для уже известных токенов 
-> Время обучения не зависит от количества данных, только от 
размера графа 


=> Метрика полноты выше,чем у классического подхода 
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Э Нельзя рассчитать вектор для неизвестного токена 

> Если у пользователя нет ни одного известного токена, то приходится брать 
среднее среди всех пользователей 

> Рассчитываем вектор только для ребра, а не всей последовательности 


Э В целом показатели качества ниже, чем у классического подхода 
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graph_embs SC A - ~ 
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Recall для целевого 
класса 


0.051 


0.122 (+137.5 %) 
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человек — текст 
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Теорема Кондорсе! 
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Теорема Кондорсе! 


или по-простому: пробуем объединить подходы 
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текст (ат 128) + граф (dim 128) = emb (діт 256) 
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F1 мера для Ргесісіоп для Recall для 
целевого класса целевого класса целевого класса 


classic 0.632 (0 %) 0.053 (0 %) 0.056 (0 %) 0.051 (0 %) 


text_embs 


Подход КОС АЦС 


ка АА 0.664 (+4.9 %) 0.056 (+5.7 %) 0.032 (-42 %) 0.224 (+337 %) 
зно 0.627 (0.996) 0.039 (-27.4 26) 0.023 (-58.7%) | 0.122 (+137.5 %) 
See 0.679 (+7.3 %) 0.062 (+16.6 %) 0.043 (-23 %) 0.115 (+125 96) 


Метрики Precision и Кеса! получены в результате перебора порога бинаризации для максимизации F1 мера для целевого класса 
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Кейс 


Онлайн-кинотеатр 
Неглубокая полносвязная сеть 
В 20 раз лучше, чем случайный 


предиктор 
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Ш Лог -регрессия на сырых данных клистрим |Ш Градиентный бустинг на сырых данных кликстрим 
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[1 наилучшая модель на змбедднгах 


Сегмент посетителей онлайн-кинотеатра 


Сегмент другого сайта 
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Что можно использовать еще? 


Ссылка, с которой перешел пользователь 
Время события 

Уникальные идентификаторы пользователя 
ОзегАдеп! 

® Cookies 

е Неадег5 

г Params 
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Что можно использовать еще? 


е Ссылка, с которой перешел пользователь 
е Время события 
• Уникальные идентификаторы пользователя 
` ОѕегАдепї 

® Соокіеѕ 

е Неадегѕ 

г Params 
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История третья 


ТітеЕпсодйег 
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Зедиепсе-10-ведиепсе модель - это модель, 
принимающая на вход последовательность и 
возвращающая другую (такую же) последовательность 
элементов. 


SEQUENCE ТО SEQUENCE MODEL 
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Reconstructed 
user trail 
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probabilities 


Decoder 
output (0915) 


Fully-connected 
decoding layer 


LSTM 
decoding layer 


LSTM 
encoding layer 


Embedding 
layer 


Temporal score 
embedding layer 


User trail 
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Параметры модели 
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e Размерность LSTMs, Embedding = 100 

• Максимальная длина последовательности 64 (95% сессий имеют 61 и 
меньше событий в сессии) 

“ Количество эпох 10 

e Оптимайзер Adam (іг = 0.001) 

e Изменение СгоззЕп гору! о55 в процессе обучения 
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Векторизатор 


• Для процесса получения векторов необходимо удалить декодирующую часть 
(DECODER) и оставить только кодирующую (ENCODER) 


e Усредненный вектор выходов І.5ТМ-слоя 
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Как тестировали 
эмбеддинги? 
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сее 1 - Lookalike 


Сравнение с нашим подходом, объединяющим 
Текстовые и Графовые эмбеддинги 


Среди всех model ищется соответствующий метрике 
максимум, кроме случаев переобучения 
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Сравнение с нашим подходом, объединяющим 
Текстовые и Графовые эмбеддинги 


LaL САВ_Х 


Превосходство ТитеЕпсоаег над подходом дгарй Тех! 
е гос аис +22.5% 


е {#1 score clickstream +75% 
е #1 ѕсоге герг затре +1.42% 
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Сравнение с нашим подходом, объединяющим 
Текстовые и Графовые эмбеддинги 


LaL САВ У 


Превосходство ТитеЕпсоаег над подходом дгарй Text: 
е гос айс +8.23% 


е (1 <соге списка геат +34.7% 
е #1 ѕсоге герг затрје +2% 
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Сравнение с нашим подходом, объединяющим 
Текстовые и Графовые эмбеддинги 


LaL АРРАКТ5 


Превосходство ТитеЕпсоаег над подходом дгарй (ех! 
е гос айс +6.5% 


е {#1 score сискокеат +25% 
е #1 ѕсоге герг затрје +2% 
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Сравнение с нашим подходом, объединяющим 
Текстовые и Графовые эмбеддинги 


LaL АЛА 


Превосходство ТитеЕпсоаег над подходом дгарй Тех! 
е гос айс +0.62% 


е (1 score chcketream -3% 
е #1 <соге герг sample -0.12% 
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Сравнение с нашим подходом, объединяющим 
Текстовые и Графовые эмбеддинги 


Превосходство ТітеЕпсоаег над подходом дгарп {еж (в среднем): 
е гос айс +9.46% 


е #1 score clickstream +32.93% 
е (1 зсоге герг затрје +1.325% 
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2 - Предсказание осуществления 
целевого действия 


Превосходство ТитеЕпсоаег над подходом агарһ Тех! 
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гос айс +48% 

#1 -ѕсоге target +283% 

f1-score пої їагдеї +168% 
f1-score_max for target +281% 
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Дальнейшие шаги 


e Изучить различные способы представления времени 


• А работает ли это на других данных? 


ТА Hiel оаа 
59 (ні) БАЕТ да й 


кое г 


60 


Дальнейшие шаги 


Изучить различные способы представления времени 


А работает ли это на других данных? 


Сиска геат ОФД 
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Доставка - Стандартная 
доставка в течение 2-3 ... 


Бальзам для губ Ир Јисег 
Малина, свекла и им... 


Скраб для тела Ғгепсһ Сгаре 
Зеед 


Йогурт для тела 
«Миндальное молочко» 


Пилинг для тела «Клубника» 
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Данные ОФД 


Текущий пайплайн работает хорошо 


Ара Ит.уошибе.сот/мајсћ ги КЗО4 ХубеТвзоватр паех< 105 
https://habr.com/ru/company/lanit/blog/462959/ 
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Данные ОФД 


Текущий пайплайн работает хорошо 


Ара Ит.уошибе.сот/мајсћ ги КЗО4 ХубеТвзоватр паех< 105 
https://habr.com/ru/company/lanit/blog/462959/ 


Хотим: 


e Менее разреженные представления 
• Неинтерпретируемые 
• Вектор короче 
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Данные ОФД 


Пилот с другим онлайн-телевидением: 


Задача холодного старта рекомендательной системы 


ТА Hiel оаа 
64 (нш 


Данные ОФД 


Пилот: 


Проблема холодного старта 
рекомендательной системы 


Успех! Ждем пресс-релиз 
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-. Clever DATA 


(ee: 


Эмбеддинги 
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ВОС-АЏС 
Average Precision 
NDCG 
МОСС@50 


на данных ОФД 


Эмбеддинги 
4% 
+ 92% 
+ 40% 


+ 34% 


> Clever DATA 


d Hiehl сас+ 
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0.75 


0.50 


0.25 


0.00 


-0.75 


В пространстве 
эмбеддингов 


-0.25 


0.00 


а. 
«> Clever DATA 


У 


І Hiehl сасе 
HL e AE 


Выводы 


Правильно подготовленные эмбеддинги способны на многое! 


Подготовить наилучшим образом эмбеддинги помогут: 


“ статьи других исследователей 

• добавление важной информации (например, времени) 
“ подходы из различных направлений 

e эксперименты на различных задачах 
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-. Clever DATA 


Ch HighLoad 
(ні) а оне й 


> Clever DATA 


Что-то новое может быть улучшенным старым 
А может быть совсем новым :-) 


Будьте открыты идеям и экспериментам! 


© https://t.me/samy 1010 


Ө https At meint рго 


Ch Нен саа 
69 (ні) БАРТ да й 


Спасибо! 


Анастасия Семенова 
Иван Снегирев 
Артём Просветов 


неме 
(ні) AT 


-- Clever DATA 


- 
- 
- 
- 
- 
- 


м 


